查看原文
其他

当期荐读 2020年第6期 | 基于职业经历和引文网络的华人姓名消歧算法

刘玮辰 等 信息资源管理学报 2022-04-24

图源:视觉中国


刘玮辰1 史冬波1 李江2

(1. 上海交通大学国际与公共事务学院,上海,200030;

(2. 南京大学信息管理学院,南京,210023)




作者姓名歧义是科技文献研究的重要基础问题,该问题在华人姓名中一直没有得到较好的解决,本研究目的在于提升华人姓名消歧算法的准确率。本文首次提出基于作者职业经历与引文网络的姓名消歧算法,该算法在构建的华人作者Web of Science(WoS)论文准确集上的F1值达到82.91%,但在数据可得性、规模化使用等方面存在一定限制。本文的算法是针对WOS华人作者的姓名消歧算法,具有操作性强、运算速度快、不依赖于复杂模型、不受制于计算资源等特性,具备良好的应用前景,本文构建的精确数据集亦对后续研究有借鉴意义。




姓名消歧 华人学者 监督学习 职业经历 引文网络



1 引言 

近十年,科技论文作者姓名消歧算法取得了令人欣喜的进展[1],将科学计量学的分析对象从论文、期刊、国家/地区,推进到科学家个人、团队和组织,更加接近科学研究的现实场景,在很大程度上丰富了我们对科学演进规律的理解[2]。例如,Torvik等开发了针对Medline数据库的姓名消歧算法Author-ity,并应用到Medline全库一千五百万篇论文中[3]。利用Author-ity算法,Azoulay等证实了“资助人funding people”的模式比“资助项目”的模式更能激励科学家的创新[4];Foster等比较了科学家“探索式创新”(exploration)与“挖掘式创新”(exploitation)两种研究策略的风险与收益[5];Verginer等研究了全球生命科学家的流动模式[6]。由此可见,姓名消歧算法已经成为了科学计量学的“共性技术”,在一定程度上,决定了科学计量学研究学术共同体的研究基础[1]

相应地,国内学者也开始逐渐聚焦于以科学家个人与团队作为研究单位,研究中国学者的职业流动[7]、科研合作[8]、项目资助[9]。但是这些研究或是使用手工收集校对科学家的发文记录,或是使用了消歧算法却没有汇报具体的流程与准确度,均在不同程度上忽略了姓名消歧这一问题。实际上,如果姓名消歧处理不当,可能导致科学家论文记录“张冠章戴”,直接影响研究结论,这无疑削弱了相关研究的科学性,限制了学术共同体的发展[10]

尽管姓名消歧在科学计量学研究中极为重要,但是针对华人作者的姓名消歧问题的研究却依然处于非常早期的阶段。实际上,学术界对于亚洲作者特别是华人的姓名消歧问题一直以来也没有满意的解决方案[1],这一方面是由于华人作者的常用名(common names)以及同音现象大量存在,另一方面也是由于国内学者没有给予充分的重视。因此,针对华人论文作者姓名消歧存在以下问题:①缺乏公开可信的黄金标准准确数据集(Golden Standard Dataset);②缺乏对问题难度与可解决程度的共识;③缺乏有效的可以简洁使用的算法。

因此,本文首先为华人学者姓名消歧构建了一套黄金标准准确数据集,并在此基础上开发了基于学者个人经历和引文网络的消歧算法,该算法在不使用机器学习算法的情况下,达到了准确度高,对硬件要求低,应用范围广的目的。特别是本算法适用于针对科学家个体与团队的科学计量研究,因为在相关研究中,科学家个人的职业经历是必要的基础数据,使用本算法不会带来额外的时间成本。



2 姓名消歧问题界定 

姓名消歧的关键在于确定姓名相同或相似的两篇学术文献是否指向同一学者。然而,这看似简单的问题在科学计量领域仍然悬而未决。具体来讲,姓名消歧会遇到两类挑战(图1):一类是一人多名问题,即同一个人由于名字的改变、姓名变体、输入错误或使用笔名等原因而出现多个不同的名字;一类是一名多人问题,如不同华人姓名的拼音完全相同。不能识别姓名完全一样的不同研究人员的学术文献,是造成重名问题至今仍处于“黑箱”状态的主要原因[11-13]。这一点对于识别亚洲国家科研人员的发表记录时尤为重要。华人排名前三的姓氏“Wang”“Zhang”“Li”占据了人口总数的21%[14]


图1 姓名歧义的两类问题

以凝聚态物理领域为例,WOS库收录了2008—2017年间包含该领域282994篇文章,这些文章中共对应了455709位作者。其中,作者姓名出现两次及以上的有202164位,关联了其中的273227篇文章。也就是说,超过96.55%的文章作者都出现了至少两次(图2)。此外,超过70.14%的文章包含姓名出现次数大于10次的作者。由此可见,重名现象在该领域十分普遍。


图2 WOS库2008—2017年收录凝聚态物理领域的文章作者出现频次及关联文章数

进一步聚焦WOS库凝聚态物理领域作者出现数量最多的前20名,其中有18名科学家为华裔姓名,包括“Li Wei”“Zhang Lei”“Wang Wei”“Zhang Wei”等。如果把重名视为随机误差而不作处理的做法是不严谨的,对于华人科学家的论文数据进行的研究,如科研合作网络、科研产出和创新政策评估等都会造成偏误。目前一些消除歧义的做法认为,东亚人的名字,尤其是华人的名字,应该单独处理,以提高消除歧义的准确性[15]



3 姓名消歧研究现状 

姓名消歧经历了从忽视到逐渐受到重视直至目前跨学科合作的发展过程[16-18]。Bagga等在1998年首次针对姓名消歧问题展开研究[19];Strotman等在研究合作网络时发现,是否使用消歧策略会对研究结论产生显著的影响[20]。这一结论引起了学术界对于姓名消歧问题的重视。根据是否使用标记好真值的数据集来训练模型,可以将姓名消歧算法分为监督算法、非监督算法,以及半监督算法。


3.1 监督算法姓名消歧

监督算法将打好标签的准确集分为训练集与测试集,在训练集上,通过机器学习或者规则设定型的方法训练一个分类模型,并在测试集上测试分类模型的精确度。Han等[21]使用朴素贝叶斯概率模型和支持向量机两个监督学习算法,利用合作者姓名、论文题目、期刊或会议名称等特征参数来解决作者姓名歧义问题;Wang等[22]提出了增强树模型(boosted trees model)的分类方法,随机手工收集了来自于100位作者的数据集进行消歧过程。这一方法虽然有很好的消歧效果,却无法对高错误率的作者进行分类。Huynh等[23]测试了五种监督学习方法的效果,包括随机森林、支持向量机、k近邻法、决策树和贝叶斯,结果发现,k近邻法、决策树和随机森林的效果要优于其他几种方法。然而,作者的尝试仅限于选取了10位作者进行手工标记其论文,样本量太小,缺乏代表性。

监督算法依赖于有标记的训练集数据,准确性较高,却也因此需要大量的时间和人工成本。且训练集的代表性和完整性也成为了制约监督算法普遍应用的原因。


3.2 非监督算法姓名消歧

非监督算法不需要打好标记的数据集,而是根据样本之间的距离来聚类,找到给定数据的内在结构,最大化组间差异,最小化组内差异,实现样本聚类。非监督算法的挑战在于如何确定聚类的数目以及如何给定不同类别之间距离的阈值[2]。Giles团队在非监督算法方面作出了重要贡献,提出了K-way谱聚类的非监督算法[24]、SVM-DBSCAN模型[25]和主题模型[26]。随后,Cota等使用了分层聚类方法,并使用了与Giles团队相同的特征参数,结果可以比肩甚至优于以上几种非监督算法[27]

非监督算法的优势在于不需要收集手工标记的数据作为训练集,但面临着其他问题:①由于需要计算各文献之间的相似度,当面临文献数量巨大时,运算速率会急剧下降;②很难确定聚类的数目和相似阈值。


3.3 监督和非监督算法的结合

半监督算法通过使用少量标记训练数据结合未标记的数据来获得良好的准确性。在几乎所有的半监督算法中,都有一个关于数据一致性的假设,即相互接近或具有相似结构的数据可能具有相同的标签[2]。例如,On等[28]提出了一个两步消歧框架,比较了朴素贝叶斯模型和支持向量机两种监督算法,以及基于字符串的距离度量(string-based distance)和基于矢量的余弦距离(vector-based cosine distance)两种非监督算法,结果证实了两步消歧框架要比传统的一步式方法计算速度快四倍、准确性高50%。Song等[26]提出了一个主题模型的两阶段消歧框架,第一阶段提出了两个新颖的主题模型即概率潜在语义分析(PLSA)和潜在狄利克雷分配(LDA);在学习了初始模型之后,将主题分布视为特征集,并利用层次聚类算法消除名称的歧义。实验结果证实了两阶段框架的效果优于其他非监督算法如谱聚类和DBSCAN聚类算法。


3.4 针对华人作者姓名消歧的研究

少数学者也对华人作者姓名消歧进行了尝试,Tang等[29]提出了ASE算法,选择了两个案例进行测试,其中在一个中文作者的案例中得到了81%的准确率。ASE算法的主要限制在于它依赖于文章的前引数据的可用性,搜集前引文章使得这一方法变得较低效。并且如果属于同一作者的不同文章缺少共引文献,那么这一算法也无法准确识别。Han等[11]第一次提出了引入指纹技术进行姓名消歧,采用了基于语义指纹法,选取了七位华人科学家名字收集了845篇文章构建了训练集进行测试,其中语义指纹是融合了作者特征和机构特征的文本指纹。然而,作者的数据集规模太小,查全率较低,对于名字相同且在同一领域的不同作者很难区分。

除了应用算法消歧外,很多数据库也开始建立自己的姓名识别系统,例如WOS中的WOS Researcher ID、Scopus Author ID, arXiv Public Author Identifier、PubMed Author ID等。其中,ORCID是目前全球通用、引用最广的科研人员身份识别码。但是,注册ORCID的中国科学家仅仅占到注册群体的4.2%[30],而ORCID对本文准确集的覆盖率不足5%。因此,ORCID目前对于解决中国科学家姓名消歧问题十分有限。

综上,现存的消歧算法并不能直接适用于华人学者的姓名消歧问题,缺乏相关的黄金标准准确数据集,且相关问题没有得到学术共同体的重视。



4 姓名消歧流程设计 

4.1 流程设计


本文消歧算法的实现基于监督学习的思想,主要分为三个阶段(见图3):第一阶段,首先提取作者个人经历中的姓名、博士毕业院校、博士开始年份及毕业年份、学科、工作机构、开始年份、结束年份等属性;其次根据作者的全名及变形,选取对应WoS-SCIE数据库截至2017年底的全部SCIE论文作为备选集P0,选出P0中全部文章的发文机构、发表年份,随后将发文机构与对应作者简历中的工作机构匹配,且将论文发表年份与其工作年份相差不超过n1年的论文构成P1。第二阶段,基于文章间的引用关系,从P0P1的差集中,选取论文作者姓名与P1相同,且文章之间存在引用关系(不分方向)的论文加入P1,不断迭代直至P1不再发生变化,形成饱和的论文集P2。第三阶段,对P2再一次进行基于个人经历的筛选,选出P2中的论文发文单位与对应作者个人经历中的工作机构匹配,且论文发表年份与其工作年份相差不超过n2年的论文构成P3。最终的P3便是作者的论文集合。


图3 姓名消歧流程图

总的来说,算法的构造思路是通过个人经历中的特征限制匹配条件以提高精确度,来获得准确率较高的论文集作为初始数据,接着通过引文网络迭代添加论文以提高查全率,最后再通过放宽简历中的特征作为匹配条件,得到最终具有较高准确度的结果。


4.2 模型评价

本文选取B_Cubed作为模型的评价指标。其中,Gi表示精确集中的第i个学者的全部记录,Pi表示预测集里的第i个学者的全部记录。精确度是预测集里属于精确集的结果占全部预测集的比例,查全率是预测集里属于精确集的结果占全部精确集的比例。


相比于其他的评价指标,B_Cubed并不是计算单独每一条记录的精确度和查全率,而是最后取所有的记录平均数来预测F值,将全部记录视为一个总体来计算。这种做法的好处在于,不会对每一个个体取平均,弱化真值差距极大和极小的差异,从而更加客观地解释总体的效果。


4.3 构造训练集

本文选取了一个代表性的华人学者数据集,由从海外回国并入选某人才计划的优秀青年学者与在海外工作的青年华人学者组成,该数据集可以代表当前高层次的华人青年学者,研究样本的覆盖范围为算法实现的普适性提供了重要基础。笔者逐一检索相关学者的简历与个人主页,整理其自我汇报的完整论文清单作为准确数据集。此外,笔者还人工收集了全部学者的简历信息,包括性别,本科、硕士、博士的毕业院校、毕业时间、专业、博士毕业后的所有工作机构与工作时间,构成了完整的青年学者简历数据库。最终,准确集共包含338位学者与10661篇论文。

最后,本文从WOS数据库汇总收集了全部论文的发表年份、发表机构、所属领域、施引文献、施引文献年份、被引文献、被引文献年份等记录,按照7∶3的比例将数据集分成训练集和测试集。训练集共有236位科学家的7908篇论文,测试集共有102位科学家的2884篇论文。



5 实验结果 

5.1 构造备选集

本文首先根据学者的姓名全名(姓+名的全拼形式),选取了WOS数据库中指向该姓名的全部论文,并对论文进行第一阶段基于个人经历特征的筛选,筛选后发现,查全率较低。对查全率低的原因进行分析发现,除数据库自身原因(小部分论文的机构、年份缺失)及系统误差外,主要有以下几点:

(1)姓名的多重变形:比如学者Li Yiping,数据库中的姓名为Li, Yi-Ping;学者Zhou Shuyun,数据库中姓名为Zhou, S.Y.;学者Zhang yuanbo,数据库中的姓名为Zhang y.等。

(2)发表年份在离开该机构年份的3—6年间;

(3)学者简历的机构在数据库的学院字段

因此,本文对所有作者的姓名进行了简化处理,去掉了名字中所有的标点符号等,将全部姓名简化为三种形式(表1),再以这三种形式去数据库里选取论文,随后将选出的论文和训练集进行比对,得到查全率为100%,即属于作者的论文都通过此方法找全,结果定义为P0


表1 作者姓名类型简化示例


5.2 参数设定过程

将姓名变形归类为三大类得到100%的查全率后,依次测试每一种姓名形式和机构作为筛选条件,发表年份在离开机构时间的1—5年的精确度、查全率和F1值。结果显示(图4),最高的F1值74.17%,出现在NAME1,且论文发表年份与其工作年份相差不超过3年,即n1=3。


图4 单一姓名形式测试结果

接着笔者使用多种姓名形式进行组合,依次测试了不同的姓名组合和机构作为筛选条件下,发表年份在离开机构时间的1—5年的精确度、查全率和F1值。结果显示(图5),虽然加入了不同姓名组合使结果的查全率得到了显著提升,然而过低的精确度却并不能得到准确度较高的结果。


图5 姓名组合测试结果

研究发现,仅依靠学者的个人经历数据,即可达到很好的效果。由此,我们将得到的第一阶段最优结果定义为P1,F1值为74.17%,需满足:

条件1:NAME1第一种姓名形式条件2:简历中的机构=论文对应的所有机构

条件3:Ystart<Ypublication≤Yend+3

第二阶段,我们加入引文网络,将P1P0的差集补入P1。具体的逻辑是,对于P1中每一位作者的任何一篇文章,如果差集和P1中有任何一篇文章存在一次引用关系,那么就把差集的论文补入P1。加入引文网络的目的是不断地向初始集加入数据,以提高查全率,得到论文集P2。然而查全率的提高损失了精确度,需要对P2再一次筛选。

第三阶段,从P2中筛选出符合机构的条件,并依次测试发表年份在离开机构时间的1—5年的精确度、查全率和F1值。结果显示(图6),当n2=3时,F1值最高为82.91%。


图6 引文网络测试结果

此外,笔者还尝试了加入学科作为参数。学科的定义有两种,第一种是根据第一步筛选后的数据集对应的论文一级学科大类discipline作为筛选条件;第二种是根据第一步筛选后的数据集对应的论文二级学科field作为筛选条件。结果可以看出(图7),加入学科参数后,两种定义均对F1值提升效果不大,最高的F1值为82.89%。


图7 加入学科的测试结果

因此,本文提出的算法最优结果为F1值=82.91%,需满足条件:条件1:NAME1条件2:简历中的机构=论文对应的所有机构条件3:Ystart<Ypublication≤Yend+3条件4:citation_glue function条件5:Ystart<Ypublication≤Yend+3



6 结论与讨论 

本文构建了一套覆盖338名国内外华人学者的黄金标准准确数据集,并在此基础上,设计了一个基于学者个人职业经历与引文网络的姓名消歧算法,该算法的准确率接近83%,且不依赖于复杂的机器学习模型,因此计算速度快。本算法可以被视作针对华人学者消歧算法的起始点,对该问题的可解决程度提供了基本认知。本算法的数据集可以作为后续算法的训练集。

从适用场景来看,尽管本文提出的算法需要作者的职业经历与论文被引信息作为输入,但实际上在所有以学者个人与团队为分析单元的研究场景中,职业经历信息是研究本身必备的信息,本文的消歧算法并不会增加额外的成本。如果不能获取科学家职业经历,那么可以通过选取其他特征参数如合作者网络、引文网络或电子邮件等其他方式进行消歧。就目前的算法来看,在华人学者姓名的测试集上效果并不理想,因此,本文算法在不增加成本的前提下,可以作为学术共同体的“共性技术”,服务于针对学者个人与团队的科学计量学研究。

支撑数据

支撑数据由作者自存储, Email:vickyliu26@sjtu.edu.cn。

[1] 刘玮辰,史冬波.华人科学家简历.RData

[2] 刘玮辰,史冬波.Groundtruth.RData

[3] 刘玮辰,史冬波.Training_set.RData



尾 注

例如,我们在Web of Science数据库中按人名搜索“张伟”,会检索到来自13717个机构的15360条记录,而搜索“zhang wei”,则会检索到来自33572个机构的52009条记录。显然,这些论文不可能属于同一作者。

②未进行姓名消歧,含一人多名的情况。

③本文将研究领域分成化学、数理科学、生命科学、信息科学、材料科学、环境与地球科学六个学科领域。

④本文第一轮对年份参数的选择为:选取论文发表年份大于学者在该机构的起始时间,小于等于学者在该机构的结束时间+2年。

⑤第一轮测试仅选取了简历中的机构等于学校字段中的全部记录。

⑥三种形式中,对于两个字的姓名,第二类和第三类姓名形式相同,如id2和id5的NAME2和NAME3。

⑦一级学科大类discipline来源于Web of Science数据库GIPP学科大类,包括Arts & Humanities, Clinical Pre-Clinical & Health, Engineering & Technology, Life Sciences, Physical Sciences, Social Sciences六大类,其中Physical Sciences进一步被分成Mathematics, Physics, Chemistry三类。参见 http://help.prodincites.com/inCites2Live/indicatorsGroup/aboutHandbook/appendix/mappingTable.html。

⑧二级学科field来源于Web of Science的固有字段,参见 https://images.webofknowledge.com/images/help/WOS/hp_subject_category_terms_tasca.html。



作者简介

刘玮辰,博士生,研究方向为科技政策、人才流动、创新经济学;

史冬波(通讯作者),博士,特别副研究员,研究方向为创新经济学, Email:shidongbo@sjtu.edu.cn; 

李江,博士,教授,研究方向为信息计量学。



参考文献



*原文载于《信息资源管理学报》2020年第6期,欢迎个人转发,公众号转载请联系后台。


* 引用格式

刘玮辰,史冬波,李江.基于职业经历和引文网络的华人姓名消歧算法[J].信息资源管理学报,2020,10(6):82-89,100.


制版编辑 | 王阿凤



往期推荐

当期目录 | 2020年第6期

当期荐读 2020年第6期 | 信息资源管理视角下的欧盟数字版权保护研究

当期荐读 2020年第6期 | 我国开放数据研究进展与趋势(1996—2019年)

当期荐读 2020年第6期 | 从新冠肺炎疫情反思国家医学情报体系建设

当期荐读 2020年第6期 | 突发公共卫生事件微博舆情主题挖掘与演化分析


2021

扫码关注我们!

信息资源管理学报

微信号|xxzyglxb


您可能也对以下帖子感兴趣

文章有问题?点此查看未经处理的缓存